#/usr/bin/perl
<<DOC;
-------------------------------------------------------------------------

Action : parcours une arborescence de fil RSS, extrait et nettoie les contenus textuels des titres et des descriptions
en utilisant des expressions régulières.

Commande pour lancer le programme: perl parcours-arborescence-fichiers repertoire-a-parcourir rubrique
 
 ENTREE : le programme prend en entrée le nom du répertoire contenant les fichiers à traiter avec la rubrique 
 SORTIE : le programme crée en sortie 2 fichiers:
			- un fichier au format txt
			- un fichier au format XML	

-------------------------------------------------------------------------
DOC
#-----------------------------------------------------------
my $rep="$ARGV[0]";
my $rubrique ="$ARGV[1]";
# on s'assure que le nom du répertoire ne se termine pas par un "/"
$rep=~ s/[\/]$//;
open(OUT,">:encoding(utf8)","BAO1_$rubrique.txt");
open(OUTXML,">:encoding(utf8)","BAO1_$rubrique.xml");
print OUTXML "<?xml version=\"1.0\" encoding=\"utf-8\" ?>\n";
print OUTXML "<2020>\n";
my %dico_des_titres=();
#----------------------------------------
&parcoursarborescencefichiers($rep);	#recurse!
#----------------------------------------
print OUTXML "<2020>\n";
close OUT;
close OUTXML;
exit;
#----------------------------------------------
sub parcoursarborescencefichiers {
    my $path = shift(@_);
    opendir(DIR, $path) or die "can't open $path: $!\n";
    my @files = readdir(DIR);
    closedir(DIR);
    foreach my $file (@files) {
	next if $file =~ /^\.\.?$/;
	$file = $path."/".$file;
	if (-d $file) {
	    &parcoursarborescencefichiers($file);	#recurse!
	}
	if (-f $file) {
	    if ($file =~/$rubrique.+xml$/) {
		print $i++," Traitement de : ",$file,"\n";
		open(FIC,"<:encoding(utf8)",$file);
		$/=undef;     #ou $\=""
		my $textelu=<FIC>;
		close FIC;
		while ($textelu=~/<item>.*?<title>(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) {
		    my $titre=$1;
		    my $description=$2;
		    if (!(exists $dico_des_titres{$titre})) { 
			$dico_des_titres{$titre}=$description ;
			# Appel du sous-programme de nettoyage 
			($titre,$description)=&nettoyage($titre,$description);
			# Ecriture des résultats en sorties
			print OUT $titre,"\n";
			print OUT $description,"\n";
			print OUT "--------------------\n";
			print OUTXML "<item>\n";
			print OUTXML "<titre>$titre</titre>\n";
			print OUTXML "<description>$description</description>\n";
			print OUTXML "</item>\n";
		    }
		}
	    }
	}
    }
}
#----------------------------------------------
sub nettoyage {
    #my $titre=shift(@_); autre solution en vidant la liste des arguments du programmes...
    #my $description=shift(@_);
    my $titre = $_[0];
    my $description = $_[1];
	$titre=~s/^<!\[CDATA\[//;
	$titre=~s/\]\]>$//;
	$description=~s/^<!\[CDATA\[//;
	$description=~s/\]\]>$//;
    $description=~s/&lt;.+?&gt;//g;
    $description=~s/&#38;#39;/'/g;
    $description=~s/&#38;#34;/"/g;
    $titre=~s/&lt;.+?&gt;//g;
    $titre=~s/&#38;#39;/'/g;
    $titre=~s/&#38;#34;/"/g;
    $titre=~s/$/\./g;
    return $titre,$description;
}
